Часть 1

Здесь самостоятельно реализован алгоритм кластеризации KMeans.

Алгоритм K-Means.

Параметры:

Атрибуты:

Метод predict(): Новый объект определяется в кластер, центр которого расположен ближе всех к этому объекту.

Тестирование

Результаты кластеризации должны совпадать кастомного и библиотечного алгоритмов должны совпадать.

Часть 2

Анализ датасета по различным городам США.

Notes:


Задания:

  1. Выполнить необходимую предобработку данных.

  2. Выполнить кластеризацию иерархическим методом. (агломеративно)

  3. Выполнить кластеризацию методом Dbscan.

  4. Выполнить кластеризацию методом kmeans.

  5. Выполнить кластеризацию другими методами.

  6. Сравнить результаты.

  7. Выбрать одно разбиение, наиболее подходящее на ваш взгляд. Проинтерпритировать.

  8. Оценить, как полученные кластеры распределены географически.

№1

№2

кажется, что Евклидово расстояние в совокупности с методом ward дает самый разумный результат из всех. Визуально четко выделяются 3-4 кластера. В то время как в остальных случаях, дендрограммы либо не способны выделить какие-то ни было кластеры, либо очень сильно их искажают.

Оптимальное количество кластеров = 3

№3

Оптимальное eps = 0.4

№4

№5

№ 6

По значениям Силуэта видно, что все кластеризации примерно одинаково спраились с задачей (за исключением dbscan, который выделил только 1 кластер и выбросы). Лучше всех справился Gaussian Mixture.

|

|

Оценим распредление точек по кластерам с помощью pairplot.

  1. Агломеративная кластеризация

На большинстве признаков кластеры перемешаны между собой. Наиболее отчетливо кластеры различаются в строке TRansp и Pop: 0 кластер всегда имеет более маленькие значения, по сравнению с кластером 2. Кластер 1 больше похож на выбросы, поскольку точки внутри этого кластера сильно разбросаны, плотность мала. Также хорошо видно расределение на паре признаков Crime-HousingCost.

  1. DBSCAN

DBSCAN смог только выделить шум.

  1. Kmeans

Кластеризация kmeans очень похожа на агломеративную, за исключением, что 1 кластер вбирает в себя более количество точек, что визуально выглядит более правильно и логично.

  1. Gaussian Mixture

Результаты Gаussian Mixture схожи с результатами kmeans, однако немного больше точек, определенные kmeans в 1 кластер, отнесены здесь ко 2. Из-за чего значение силуэта немного ниже.

Результаты Gaussian Mixture кажутся мне наиболее правильными на этом наборе данных.

№7

Точки 0 кластера часто располагаются в левом нижнем углу графика, то есть значения точек для определенных признаков в среднем меньше, чем значения точек двух других кластеров. В это же время, 0 и 2 кластеры на некоторых признаках никак дистибутируются: их значения накладываются друг на друга. Это привело к тому, что DBSCAN объединил всё в 1 кластер.

2 кластер чаще всего находит между 1 и 0 кластерами, то есть его элементы обладают средними значениями по признакам. Это самый много численный класс.

1 кластер -- очень разряжен, его элементы обладают, как правило, наибольшими значениями по сранению с остальными кластерами (За исключением CRime и Econ). Этот кластер самый малочисленный. Некоторые его элементы были определены дбсканом как выбросы, что логично, ведь на графике они сильно удалены от общей массы точек. Агломеративаная кластеризация его многие точки отнесла к 2 кластеру.

Таким образом:

2 кластер -- города со средней численностью населения, средним (не жарким, не холодным) климатом, уровнем здравоохранения, часто хорошими возмодностями образования, уровнем культурного рейтинга, однако довольно высоким уровнем преступлений и малым количеством рекреационных объектов.

0 кластерм -- города с маленькой численностью населения, низкими затратами на жкх и тп., низким уровнем развития здравоохранения, низкими уровнем преступности, слаборазвитыми системами образования, культуры, рекреационных возможностей.

1 кластер -- крупные города, с большими возможностями для культурного развития и развлечений, высокими ценами жкх, развитой системой здравоохранения, средним уровнем преступности, часто с хорошими возможностями для образования.

№8

К кластеру 2 типа относятся города из разных штатов в равной степени, за исключением двух: Флорида и Техас. Штаты, города которых входят в 0 кластер, также очень разнообразны, нельзя выделить какой-нибудь доминирующий, однако немного выделяется Техас. В отличие от двух предыдущих кластеров, во 1 кластере очевидно доминирующая доля Калифорнии, города которой занимают примерно 25% от общего количества. За ней следуют Коннектикут и Нью-Джерси, количество городов которых совокупно также составляет около 25%.

В целом, в 0 кластер входит большое количество штатов, что логично, ведь 0 кластер отражает "средние" города. Наоборот, в кластер 1 входит меньшее количество штатов.

Из карты видно, что крупные города сосредоточены на западном побережье в Калифорнии (где находится большее количество айти-предприятий и развиты промышленность и киноиндустрия) и на восточном побережье вокруг Нью-Йорка -- финансовой столицы США.